News

KI: Auf der Suche nach einem Körper

17.07.2025

Computerlinguist Philipp Wicke forscht darüber, wie sich Künstlicher Intelligenz menschliches Weltverständnis beibringen lässt und sie auch nonverbale Kommunikation verstehen kann.

Das Dumme an Künstlichen Intelligenzen ist, dass sie nicht intelligent sind. Dieser Satz ist schwer verständlich – für alle Intelligenzen. Denn entweder beinhaltet der Satz eine Tautologie: Wenn die Maschinenintelligenzen nicht intelligent sind, dann sind sie dumm. Oder aber der Satz klingt nach einem Oxymoron, einem Widerspruch in sich selbst: Wenn sie doch dumm sind, warum nennt man sie dann Intelligenzen? Das, was Menschen im Umgang mit KI beunruhigt, ist, dass beides zutrifft: Künstliche Intelligenzen sind zugleich himmelschreiend dumm wie atemraubend intelligent.

Die großen Sprachmodelle (LLMs) sind Textvervollständiger, die darauf trainiert sind, die Wahrscheinlichkeit für das nächstfolgende Wort vorherzusagen. Die neue Generation wie ChatGPT hat dafür Texte „gesehen“, die immer länger wurden. Zum Beispiel: „Ich verstehe", „ich verstehe was", „ich verstehe was KI", „ich verstehe was KI ist". Ihre Vorgängermodelle wurden noch mit Lückentexten gefüttert, um zu lernen, das in einem Satz fehlende Wort zu erkennen und sich dabei selbst zu überprüfen. Die Füllung für diese Lücken konnten sie automatisch aus nahezu sämtlichen der im Internet veröffentlichten Texte generieren.

Philipp Wicke steht in einem Hörsaal

Forscht über die blinden Flecken Künstlicher Intelligenz:

KI-Experte Philipp Wicke.

© LMU/Stephan Höck

KI erfasst Bedeutung ihrer eigenen Aussagen nicht

Das selbstüberwachte Lernen unterscheidet sich nicht nur fundamental von der Art und Weise, wie Menschen sich Wissen aneignen, es ist auch wesentlich ineffizienter, was Material- und Energieeinsatz betrifft. Trotzdem liefern LLMs wie ChatGPT, Perplexity, Gemini, DeepSeek oder xAI erstaunliche Ergebnisse: KI kann in Sekundenbruchteilen Terabytes an Daten analysieren, was für Menschen unmöglich ist. Allerdings fehlt der KI die Fähigkeit, Kontext jenseits der trainierten Daten zu verstehen. Sie erfassen die Bedeutung ihrer Textvervollständigungen nicht.

Der Anwender weiß darum nicht genau, womit er es eigentlich zu tun hat: einem überkompetenten Ratgeber oder einem tumben Datensammler, der weder Wissen für sich anhäuft noch aus Erfahrungen lernt. KI ist klug, aber sie wird nicht klüger. Sie artikuliert sich wie ein Mensch, aber sie ist keiner. Die daraus entstehende Unsicherheit führt für den Anwender in einen Bereich der Wahrnehmung, der das „Uncanny Valley" (zu Deutsch: „unheimliches Tal") genannt wird.

Forschen über die „blinden Flecken“ der KI

Genau hier setzen die Forschungsarbeiten von Dr. Philipp Wicke an. Er ist, wenn man so will, ein professioneller Scout, der durch das „Uncanny Valley" der KI führen kann.

Wicke ist Kognitionswissenschaftler. Sein Weg führte ihn über Osnabrück, wo er Kurse in Mathematik, Informatik, Psychologie, Philosophie, Künstliche Intelligenz und Computerlinguistik belegte, ans University College in Dublin, wo er Forschungen zu Computerkreativität anstellte und 2021 mit einer Arbeit zu geschichtserzählenden Robotern promoviert wurde. Arbeiten zu verkörperter Kognition („embodied cognition") wie nonverbaler Kommunikation und deren Integration in KI-Systeme bilden zentrale Aspekte seiner Forschung.

News

Polyglotte Maschinen: Porträt über Prof. Hinrich Schütze

Weiterlesen

Wicke arbeitet inzwischen unter der Leitung von Professor Hinrich Schütze, Inhaber des Lehrstuhls für Computerlinguistik und Co-Direktor am Centrum für Informations- und Sprachverarbeitung (CIS) der Ludwig-Maximilians-Universität München.

Er forscht über die blinden Flecken der Künstlichen Intelligenz und er will sie tatsächlich intelligent(er) machen. Derzeit ist er Junior Researcher in Residence mit einem Forschungsstipendium am Center for Advanced Studies (CAS) der LMU. Anfang September 2025 wird er dort die von ihm konzipierte Tagung zu „Non-Verbal Behavior and Embodiment in Human-AI Communication" leiten.

Was menschliches Weltverstehen einzigartig macht

Wickes Ansatz basiert auf der Beobachtung, dass menschliches Weltverstehen maßgeblich davon bestimmt wird, in welchem Körper wir sind, in welcher Umgebung wir sind und wie diese Umgebung unsere Wahrnehmung beeinflusst. Die rasante Entwicklung der Künstlichen Intelligenzen, insbesondere der Großen Sprachmodelle (Large Language Models, LLMs), habe jedoch fast völlig vernachlässigt, dass der KI dieser räumlich-physische Weltbezug und damit ein wesentliches Moment unserer Kommunikation abgeht. Ein Bezug, der unter anderem die Metaphern in unseren Sprachen hervorgebracht hat. Künstliche Intelligenzen begreifen neu geschaffene Metaphern meist nicht, weil sie – jetzt im Wortsinn – nicht greifen können.

Menschen verstehen Metaphern wie „Ihre Worte trafen ihn wie ein Hammer", weil sie physisch wissen, wie sich ein Hammerschlag anfühlt. KI-Modelle hingegen haben keinen Körper. Wicke hat die einschlägigen LLMs daraufhin untersucht und konnte nachweisen, dass statistisches Lernen aus Textdaten zwar ausreicht, bestimmte Aspekte menschlicher Kognition nachzuahmen. So können die Sprachmodelle konventionalisierte Metaphern („eisiger Blick") auch erfassen, weil sie entsprechend häufig in den Trainingsdaten auftauchen. Sie haben aber weiterhin Schwierigkeiten im Verständnis von kreativen Neologismen („die Zeit fraß ihre Erinnerungen") und kulturgebundenen Metaphern („so süß wie Baklava"). Dennoch gelingt es größeren Modellen (z.B. GPT-3), konventionalisierte Metaphern mit verkörperten Verben (laufen, fallen) besser zu interpretieren als abstrakte Begriffe (denken, existieren). Seine Arbeit zeigt: Je „verkörperter" ein Verb ist (z. B. tanzen, greifen), desto leichter können KI-Systeme die zugehörigen Metaphern korrekt deuten – vorausgesetzt, die Modelle sind groß genug. Eine Erklärung hierfür ist, dass mehr verkörperte Begriffe von Menschen in der Sprache auch mehr lexikalisiert sind. Es gibt ein tieferes, breiteres Verständnis dieser Begriffe und deshalb ein festes Konstrukt, das das Sprachmodell abbilden kann. Kleinere Modelle (z.B. GPT-2) scheitern dagegen oft an dieser Aufgabe. Erst ab etwa einer Milliarde Parametern in den LLM zeigt sich ein positiver Effekt.

Das rein textbasierte Training dieser Modelle vernachlässigt aber immer noch, dass menschliche Kommunikation multimodal ist und sich nicht nur auf Worte stützt, sondern auch auf Gesten, Gesichtsausdrücke und Körpersprache angewiesen ist, um Bedeutung, Absicht und Emotionen mitzuteilen. Ohne physischen Körper fehlt LLMs das Verständnis für diese nonverbalen Signale.

KI trainieren, damit sie natürlicher kommuniziert

Tagung: On Non-Verbal Behavior and Embodiment in Human-AI Communication

Weiterlesen

Auf das also, was abseits der Sprache die Kommunikation trägt und Informationen vermittelt, konzentriert sich Wicke nun am Center for Advanced Studies. Er interessiert sich für das, „wie etwas gesagt wird". Dazu gehören die Körpersprache, Bewegungen, die Gestik, Handbewegungen und Gebärden, die Mimik, Gesichtsausdrücke, Blickverhalten wie auch paraverbale Signale, also Tonfall, Lautstärke, Sprechtempo, Pausen.

Dieses „Wie" basiert auf unserer Erfahrung mit der Widerständigkeit der Welt, hat also immer einen räumlichen Bezug. Damit KI-Systeme Gesten und räumliche Metaphern besser erkennen, müssen sie die Beschreibung körperlicher Erfahrungen in ihren Trainingsdaten vorfinden, um sie einbeziehen zu können. Metaphorische Wendungen, etwa „die Zeit fliegt", würden dann ebenso verstanden werden wie konkrete Gesten.

KI hat kein interkulturelles Verständnis

News

Hatespeech moderieren: Wo KI den Menschen braucht

Weiterlesen

LLMs müssen dazu noch etwas anderes lernen: Sie wissen oft nicht, was kulturelle Codes und Kontexte sind. Denn Metaphern und nonverbale Signale sind nicht nur kontextabhängig, sie sind auch kulturell geprägt. Doch obwohl die LLM mit gigantischen Textmengen trainiert wurden, fehlt ihnen oft das Verständnis für die Kulturgebundenheit von Metaphern, Gesten und paraverbalen Signalen. Insbesondere, weil diese Sprachmodelle hauptsächlich auf Texten von sogenannten WEIRD (Western, Educated, Industrialized, Rich, and Democratic) Gesellschaften trainiert werden. Ein Problem, das allerdings nicht nur LLMs haben.

Noch irritierender jedoch ist es dann, wenn LLMs Metaphern falsch deuten oder eine mimisch-gestische Interaktion zeigen, die nicht in den Kulturkreis passt, in dem sie gerade eingesetzt werden. Da die Textkorpora, mit denen die LLM trainiert wurden, hauptsächlich dem westlich-nordamerikanischen Kontext entstammen – es sind einfach die mit dem größten Volumen –, sind andere Kulturen in diesen Trainingsdaten unterrepräsentiert.

Die Überbrückung des „Uncanny Valley" ist darum in doppelter Hinsicht relevant bei der Entwicklung von KI-Anwendungen, Robotern, virtuellen Assistenten und computergenerierten Charakteren, weil es die Nutzerakzeptanz und das Vertrauen in diese Technologien so stark beeinflusst.

Warum KI dümmer zu werden droht

Dass KIs „nicht echt“ kommunizieren, bringt Philipp Wicke zum Ende des Gesprächs auf einen weiteren Gedanken. „Wenn LLMs ihre Trainingsdaten aus dem Textkorpus des Internet beziehen, dieses Textkorpus aber mehr und mehr von jenen Texten geflutet wird, die LLMs selber erstellt haben, dann trainieren sich die KI bald vornehmlich mit ihren eigenen Hervorbringungen: also mit all den Halluzinationen, Halbwahrheiten und ungeprüften Behauptungen, die man jetzt im Umgang mit ihnen feststellen muss. Auf Dauer nimmt die ‚Intelligenz‘ der LLMs damit unweigerlich ab.“

Der erste Satz dieses Artikels wurde übrigens einer KI mit der Bitte um Prüfung zur Begutachtung vorgelegt. Das war ihre Antwort: „‚Das Dumme an Künstlichen Intelligenzen ist, dass sie nicht intelligent sind' – diese Aussage ist witzig und kritisch, aber nicht ganz richtig, weil KI in vielen Bereichen sehr leistungsfähig ist, auch wenn sie kein Bewusstsein hat." Auf den Einwand, dass bewusstlose Leistungsfähigkeit keine Intelligenz ist, wehrt sich die KI damit: „Bewusstlose Leistungsfähigkeit ist nicht das Gegenteil von Intelligenz, sondern vielmehr ihr raffinierter Ausdruck." Na bitte!

Mehr zur Forschung über Künstliche Intelligenz an der LMU

Künstliche Intelligenz: Forschung zur künstlichen Intelligenz

Dossier: Highlights der KI-Forschung an der LMU

Wonach suchen Sie?